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摘 要 : 


[ 目的 /意义 ] 在 数据 生命 周期 框架 下 ,创新 性 地 提出 一 种 从 论文 中 采集 社会 科学 数据 创建 和 使 用 相关 信息 的 方 


法 ,并 深入 研究 其 基本 情况 ,为 社会 科学 数据 的 研究 提供 新 思路 。[ 方法 /过 程 ] 以 学 科 交 叉 性 较 强 的 物流 研究 领 
域 2015 - 2020 年 的 CSSCI 收录 的 论文 为 样本 ,通过 选 代 式 方法 构建 基于 数据 生命 周期 的 “ 泛 化 - 精确 关键 词 词 
库 ” ,采集 社会 科学 数据 的 相关 信息 ,并 结合 社会 科学 数据 外 部 环境 信息 ,对 社会 科学 数据 的 创建 和 使 用 进行 全 面 
研究 。| 结果 /结论 ] 在 采集 论文 中 社会 科学 数据 的 创建 和 使 用 相关 信息 上 ,二 次 匹配 数据 采集 规则 具有 可 行 性 和 


工具 的 使 用 普及 度 仍然 较 低 。 
: 社会 科学 数据 泛 化 -精确 词 库 
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二 次 匹配 数据 采集 规则 


高 效 性 ,互联 网 已 经 成 为 社会 科学 研究 主要 的 数据 搜集 方式 ,不 同 研究 主题 的 数据 使 用 偏好 不 同 ,对 于 数据 分 析 


Python 文献 计量 


尤 基 是 在 这 个 数据 井喷 式 增长 的 时 代 , 无 论 是 商业 领 
是 学 术 领 域 都 在 接受 着 大 数据 所 带 来 的 冲击 。 
科 人 能 数据 是 科学 研究 过 程 的 重要 组 成 部 分 ,既是 科学 
研究 的 成 果 ,也 是 科学 研究 的 基础 。 学 者 们 越 来 越 重 
视 数据 驱动 研究 ( Data-driven research ) ,尤其 是 在 生命 
科学 .地 球 科 学 和 地 理科 学 等 自然 科学 领域 中 号 。 为 
了 使 科学 数据 的 管理 更 加 规范 成 熟 ,国务 院 办 公 厅 于 
2018 年 3 月 17 日 印发 了 《科学 数据 管理 办 法 》( 以 下 
简称 《办 法 》) 5 ,但 《办 法 》 主 要 面向 自然 科学 、 工 程 技 
术科 学 等 领域 , 暂 未 对 社会 科学 (以 下 简称 “ 社 科 ”) 领 
域 研究 中 的 科学 数据 管理 作出 明确 规定 。 

社 科 领 域 的 学 者 们 近年 来 不 断 使 用 大 规模 数据 分 
析 方 法 、 复 杂 的 数学 模型 和 丰富 的 数据 分 析 工 具 等 "1， 
科学 数据 在 该 领域 也 有 着 重要 的 价值 和 作用 ,社会 科 
学 数据 的 管理 同样 需要 得 到 重视 。 社 会 科学 数据 可 以 


、 


政府 统计 数据 ,商业 公开 数据 等 ,也 可 以 指 狭 义 的 社 科 
领域 研究 活动 所 产生 的 各 种 数据 ,例如 文本 记录 数值 
统计 、 图 像 数据 等 ”。 正 是 由 于 社会 科学 的 研究 方法 
和 数据 格式 多 种 多 样 ,并 非 都 是 数值 型 数据 ,还 包括 文 
本 数据 档案 数据 .汇编 数据 .PDF 格式 数据 等 ,还 包括 
微观 尺度 数据 和 宏观 尺度 数据 ,缺乏 统一 标准 ,导致 该 
领域 中 科学 数据 的 利用 状况 较 差 ,并 且 分 散在 各 个 研 
究 者 和 组 织 的 手中 ,社会 科学 研究 体现 出 多 样 性 和 不 
确定 性 ,加 之 目前 对 社会 科学 数据 的 研究 较 少 ,对 社 
会 科学 数据 的 特征 了 解 不 够 深入 ,在 出 人 台 制 订 社会 科 
学 数据 管理 政策 上 缺少 现实 依据 ,阻碍 了 社会 科学 数 
据 的 管理 与 服务 。 本 研究 以 社会 科学 研究 中 物流 研究 
领域 为 落脚 点 ,以 CSSCI 收录 的 论文 作为 样本 ,在 数据 
分 析 方 面 ,首先 从 文献 计量 的 角度 分 析 社 会 科学 数据 
的 外 部 环境 ,同时 基于 数据 生命 周期 框架 ,利用 二 次 匹 
配 规 则 采集 论文 中 的 社会 科学 数据 相关 信息 ,并 具体 
分 析 其 创建 和 使 用 的 特点 ,结合 外 部 环境 深入 讨论 不 
同 发 文 单位 ,不 同 研究 热点 主题 对 社会 科学 数据 的 使 


是 广义 的 与 社 科 领域 有 关 的 数据 ,例如 社 科 调查 数据 、| 用 偏好 关系 ,分 析 社 会 科学 数据 的 创建 和 使 用 规律 。 


* 本 文系 国家 社会 科学 基金 青年 项 目 " 学 术 大 数据 环境 下 社会 科学 数 


据 开 放 的 影响 因素 及 评价 研究 "(项 目 编号 :19CTQ029 ) 和 安徽 高 校 人 文 


社会 科学 研究 重点 项 目 “ 安徽 省 物流 科技 数据 使 用 现状 与 对 策 研究 ”( 项 目 编号 :SK2017A0016) 研 究 成 果 之 一 。 
作者 简介 : 陈 欣 (ORCID :0000 - 0001 -7528 -0789) ,讲师 ,博士 ,E-mail;chenxinnju@foxmail. com; 曹 朝 金 (ORCID :0000 -0003 -2683 -2051)， 


硕士 研究 生 ; 叶 春 森 ( ORCID :0000 -0001 -7782 -2721) ,副教授 ,博士 ;六 


收 稿 日 期 :2020 -09 -24 修 


回 日 期 :2021 -02 -23 ”本文 起 止 页 码 :90 -104 本 文责 任 编辑 :了 


E 传 雷 (ORCID :0000 -0003 -4498 -3152 ) ,教授 ,博士 。 


E 传 清 


90 


陈 欣 ， 曹 朝 金 , 叶 春 森 ， 等 . 社会 科学 数据 的 创建 和 使 用 研究 
65(10) :90 - 104. 


上 全 全 干 


ChinaXjv 合 作 期 于 
二 次 匹配 数据 采集 规则 的 应 用 [可 | | 向 囊 站 得 作 .2021 | 


2 ”社会 科学 数据 研究 现状 
2.1 ”社会 科学 数据 的 管理 和 服务 研究 

当前 社会 科学 数据 的 管理 和 服务 研究 较 少 , 相 比 
较 而 言 ,具有 明显 特征 的 自然 科学 数据 的 相关 研究 较 


2.3 Python 在 文本 分 析 方 面 的 应 用 研究 

Python 作为 当下 最 热门 的 一 种 计算 机 编程 语言 ， 
在 科学 研究 中 也 常用 于 文本 分 析 , 如 谭 春 林 等 通过 
Python 编程 对 期 刊 论文 的 文本 内 容 进行 挖掘 ; 张 
娜 等 采用 Python 中 的 snowNLP 模块 对 文本 数据 进行 


多 ,因此 无 论 是 国内 还 是 国外 都 有 指导 其 管理 的 政策 ， 
如 我 国 的 《办 法 》> .美国 国家 航空 航天 局 ( National 
Aeronautics and Space Administration ,NASA ) 的 Data & 
Information Policy 英国 生物 技术 与 生物 科学 研究 理 
事 会 (Biotechnology and Biological Sciences Research 
Council,BBSRC ) 的 BBSRC Data Sharing Policey5 等 。 
也 正 因 如 此 ,我 国 开放 科学 数据 共享 的 资源 类 型 较为 
单一 ,以 自然 科学 数据 为 主 ”。 目 前 我 国 在 社会 科学 
数据 管理 的 认 知 与 做 法 上 存在 一 些 问题 ,例如 将 社会 
科学 数据 管理 简单 化 地 等 同 于 常规 性 的 资料 工作 ” 。 
因此 对 社会 科学 数据 创建 和 使 用 的 研究 显得 极为 必 
要 和 有 在 充分 了 解 社 会 科学 数据 创建 和 使 用 特点 的 
基础 上 ,才能 制定 出 面向 社会 科学 研究 的 科学 数据 管 
理 和 服务 政策 。 

社会 科学 数据 特征 和 性 质 研究 

关于 社会 科学 数据 特征 和 性 质 的 研究 ,国内 外 学 
郑 多 以 某 个 数据 库 或 元 数据 仓库 (Data Citation Index ， 
简称 DCI) 为 样本 ,如 罗 脑 程 等 基于 DataCite 分 析 科学 
数据 在 时 间 、 空 间 等 维度 上 的 特征 ""; 孟 祥 保 等 分 析 
D8K 中 历史 学 教育 学 等 5 个 学 科 的 科学 数据 的 结构 
特征 2 。 也 有 部 分 学 者 期 刊 论文 为 样本 ,以 人 工 方式 
对 文本 进行 内 容 分 析 进 而 收集 论文 中 的 科学 数据 相关 
信 筷 ,如 沈 婷 婷 以 (中 国 社会 科学 》 发 表 的 论文 为 样 
本 ,统计 分 析 了 研究 者 获取 科学 数据 的 途径 、 科 学 数据 
的 类 型 等 ,并 对 图 书馆 的 科学 数据 服务 提出 了 建 
议 "。 综 上 所 述 , 现 有 研究 仍 存在 一 些 不 足 :一 方面 ， 
社会 科学 研究 对 于 如 DataCite .DCI 等 科学 数据 库 使 用 
频率 较 少 ,提交 共享 科学 数据 则 更 加 稀少 。 大 多 数 社 
会 科学 研究 人 员 的 数据 存储 地 点 为 个 人 计算 机 ,他 们 


意见 挖掘 ,将 文本 数据 归 为 积极 和 消极 两 类 '” ; 刘 玉 
林 等 利用 Python 对 电 商 的 在 线 评论 进行 文本 情感 分 
析 " 1。 从 上 述 研 究 中 可 以 看 出 ,Python 的 文本 分 析 
能 力 已 经 日 趋 完 善 ,因此 基于 Python 的 特点 和 应 用 
情况 ,本 研究 利用 Python 编写 程序 对 论文 进行 内 容 
分 析 , 从 样本 论文 中 采集 出 社会 科学 数据 的 相关 信 


心 \ oO 


基于 现 有 研究 的 不 足 , 同 时 考虑 到 Python 在 文本 
分 析 方 面 的 广泛 应 用 ,本 研究 提出 一 种 采集 社会 科学 
数据 相关 信息 的 逻辑 思维 :首先 通过 迭代 式 方法 构建 
一 种 基于 数据 生命 周期 的 “ 泛 化 - 精确 关键 词 词 库 ” ， 
进而 依 此 设计 一 种 基于 Python 的 二 次 匹配 数据 采集 规 
则 ,该 规则 结合 词 库 可 以 从 论文 中 高 效 采 集 社会 科学 
数据 的 相关 信息 。 
3 研究 设计 
3.1 研究 思路 

研究 思路 如 图 1 所 示 , 本 研究 首先 从 CSSCI 中 检 
索 出 指定 区 间 段 内 的 物流 领域 文献 作为 研究 样本 ,在 
基于 数据 生命 周期 的 数据 采集 框架 下 ,构建 词 库 , 通 过 
词 库 和 二 次 匹配 数据 采集 规则 获取 社会 科学 的 创建 和 
使 用 特点 数据 ,并 利用 文献 计量 分 析 方 法 对 社会 科学 
数据 所 处 的 外 部 环境 进行 分 析 , 包 括 发 文 单位 、 发 文 作 
者 ,发 文 时 间 人 研究 热点 。 然 后 利用 统计 分 析 方 法 对 社 
会 科学 数据 的 创建 和 使 用 特点 进行 分 析 , 具 体 包括 创 
建 主 体 、 创 建 方法 数据 类 型 数据 分 析 方 法 .数据 分 析 
工具 模糊 词 的 使 用 6 个 方面 。 在 分 析 社 会 科学 数据 
的 创建 和 使 用 特点 时 ,结合 社会 科学 数据 的 外 部 环境 
分 析 角 度 ,更 加 全 面 地 研究 社会 科学 数据 在 创建 和 使 


的 分 享 数 据 的 方式 主要 通过 非 正 式 渠 道 进行 ,而 使 用 
存储 库 共享 数据 的 只 占 46% ” 。 因 此 以 科学 数据 库 
为 样本 分 析 我 国 社会 科学 数据 的 特征 可 能 缺乏 一 定 
代表 性 ; 男 一 方面 ,论文 作为 科学 研究 结果 的 表现 形 


维度 上 的 特点 。 
3.2 样本 来 源 

本 研究 选择 CSSCI 来 源 期 刊 收录 的 物流 研究 领域 
论文 作为 样本 ,主要 基于 以 下 几 点 原因 :中 论文 作为 科 


Ne 


式 , 从 中 可 以 提炼 出 社会 科学 数据 相关 信息 ,但 是 目 
前 以 论文 为 样本 进行 的 研究 ,多 以 人 工 的 方法 对 论 
文 文本 进行 内 容 分 析 ,一定 程度 上 限制 了 样本 的 数 


学 研究 结果 的 表现 形式 ,一 般 包含 对 科学 数据 从 搜集 
到 使 用 全 过 程 的 描述 ,便于 提炼 与 科学 数据 创建 和 使 
用 相关 的 信息 ;@ 在 学 术 领 域 具有 代表 性 的 CSSCI 经 


量 及 信息 提取 的 精确 度 ,在 研究 方法 上 存在 一 定局 
限 性 。 


常 是 学 者 们 的 首选 样本 号 ;@ 本 研究 选取 社会 科学 
研究 领域 中 ,具有 跨 学 科 .跨行 业 特性 的 物流 研究 论文 
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图 1 研究 思 


为 梓 本 ,对 社会 科学 研究 有 一 定 代表 性 ,以 物流 研究 领 
域 罗 试 点 ,为 后 续 研究 社会 科学 中 其 他 学 科 的 科学 数 
扰 创 建 和 使 用 葛 定 基础 。 

< 为 了 提高 查 全 率 和 查 准 率 , 本 研究 从 中 国 知 网 
(CNKI) 万 方 .重庆 维普 数据 库 中 ,以 物流 7 个 功能 要 


究 都 较为 完善 ,包括 针对 数据 生命 周期 理论 本 身 的 研 
究 ,以 及 基于 数据 生命 周期 研究 科学 数据 的 特征 和 管 
理 服务 ,例如 国内 的 学 者 孟 祥 保 ""、 丁 宁 "”、 武 彤 ” 
等 ,国外 的 弗吉尼亚 大 学 ,加利福尼亚 大 学 .新 黑 
西 哥 大 学 ,英国 数字 管理 中 心 (DCC)" .英国 社会 
科学 数据 存储 (UKDA)“ 等 都 针对 不 同学 科 或 领域 提 
出 了 相关 的 数据 生命 周期 模型 。 本 研究 参考 已 有 数据 
生命 周期 模型 ,最 终 确定 从 数据 生命 周期 中 的 数据 创 
建 和 数据 使 用 两 个 维度 构建 采集 框架 ,数据 创建 是 指 
社会 科学 数据 的 产生 与 搜集 环节 ,其 具体 内 容 包 括 创 


分 析 方法 数据 分 析 工 具 和 模糊 词 的 使 用 。 基 于 数据 
生命 周期 的 社会 科学 数据 创建 和 使 用 信息 的 采集 框架 
如 表 2 所 示 ,在 此 框架 下 ,依据 不 同 的 数据 采集 单元 构 
建 词 库 ,匹配 采集 文献 中 社会 科学 数据 创建 和 使 用 相 
关 信息 。 

词 库 包含 “ 泛 化 和 "精确 "两 类 关键 词 ， 泛 化 关 
键 词 " 指 期 刊 论文 中 描述 研究 样本 ,资料 .数据 时 的 常 


语 \ 关 给 仓储, 装 印 搬运 .包装 ,流通 加 工 ,配送 ,信息 
低 加 " 加 上 “物流 "和 “供应 链 ” 进行 主题 检索 ,其 他 检 
碍 说 件 设置 如 表 1 所 示 , 易 除 重复 与 无 关 的 论文 后 , 共 
得 到 样本 论文 4 114 篇。 


p< 表 1 检索 条 件 

[名称 限制 条 件 

EF 

"三 ”文献 类 型 期 乔 

pT 主题 物流 7 个 功能 要 素 ,物流 .供应 链 

WS 了 
地 理 范围 不 限 
检索 时 段 2015 年 1 月 1 日 -2020 年 3 月 1 日 
来 源 期 刊 CSSCI 收录 期 刊 
3.3 数据 采集 


本 研究 构建 一 种 基于 数据 生命 周期 的 “ 泛 化 - 
精确 关键 词 词 库 ”一 种 迭代 式 构建 词 库 的 方法 , 同 
时 提出 一 种 基于 Python 的 二 次 匹配 数据 采集 规则 ， 
规则 利用 词 库 中 的 两 类 关键 词 对 论文 内 容 进 行 检索 
实现 二 次 匹配 过 程 ,进而 采集 社会 科学 数据 的 相关 
信息 。 
S381 
库 ” 

数据 生命 周期 是 一 个 周而复始 ,动态 变化 的 过 程 ， 
一 般 来 看 ,数据 会 经 历 从 出 现 到 被 使 用 到 最 后 消逝 等 
几 个 环节 1。 目前 国内 外 对 数据 生命 周期 理论 的 研 


基于 数据 生命 周期 的 “ 泛 化 - 精确 关键 词 记 


词 ,而 这 类 词 的 使 用 场景 又 不 仅 局 限于 此 ,因此 以 
“ 泛 化 关键 词 ” 进行 检索 的 主要 目的 是 缩小 文本 检索 
范围 ;精确 关键 词 " 指 在 “ 泛 化 关键 词 " 检索 的 基础 上 
进一步 精准 定位 社会 科学 数据 相关 信息 的 关键 词 。 
例如 为 了 判断 一 篇 论文 的 社会 科学 数据 是 否 来 源 于 
统计 局 时 ,所 用 的 词 库 中 “ 泛 化 关键 词 ” 为 “统计 局 ”， 
但 是 文中 出 现 “ 统 计 局 ”并 不 意味 着 这 篇 论文 一 定 从 
统计 局 中 获取 数据 。 通 过 阅读 文献 ,发 现 当 上 下 文 
包含 “统计 局 ” ,同时 含有 “数据 来 源 “ 获 取 ”“ 查阅 ” 
等 “精确 关键 词 " 时 , 则 可 确认 该 论文 的 数据 来 源 为 
统计 局 。 
3.3.2 和 迭代 式 构建 词 库 

采集 不 同 研究 领域 .不 同 采集 单元 的 科学 数据 相 
关 信 息 需 要 不 同 的 词 库 ,为 了 保证 词 库 的 完整 性 ,本 研 
究 提 出 了 一 种 迭代 式 构 建 词 库 的 方法 , 见 图 2。 

(1) 建 立 初 始 词 库 。 基 于 前 期 对 安徽 省 高 校 近 10 
年 来 在 CSSCI 上 发 表 的 物流 研究 文献 中 的 科学 数据 相 
关 信息 进行 内 容 分 析 ,并 结合 各 采集 单元 的 前 期 研究 ， 
初步 确定 了 泛 化 关键 词 ,利用 Python 提取 样本 论文 中 
含 泛 化 关键 词 的 语句 ,并 对 语句 进行 分 词 处 理 , 对 与 泛 
化 关键 词 共 现 频数 较 高 的 词语 进行 判断 比较 ,初步 确 
定 精 确 关 键 词 ,将 泛 化 关键 词 和 精确 关键 词 在 人 词 库 
中 ,形成 初始 词 库 。 


Se 
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表 2 基于 数据 生命 周期 的 “ 泛 化 -精确 关键 词 词 库 ” 
数据 采集 维度 。 ”数据 采集 单元 含义 泛 化 关键 词 。 精确 关键 词 ” 泛 化 关键 词 总 计 / 个 ”精确 关键 词 总 计 /个 
数据 创建 创建 主体 。 ” 谁 创建 该 数据 ,如 个 人 政府 机 构 . 研 究 。 ”统计 局 数据 来 源 30 79 
团队 专业 调查 公司 企业 等 获取 
创建 方法 采集 数据 所 用 方法 ,如 网 络 查找 、 实 验 年 鉴 本 文 35 75 
(计算 机 模拟 ,访谈 .问卷 ,文献 等 根据 
数据 类 型 ” 按 数据 获取 方式 划分 为 一 手数 据 和 二 问卷 本 研究 采用 33 80 
手数 据 收集 数据 
数据 使 用 。 数据 分 析 方法 分析 处 理 数据 所 使 用 的 方法 ,如 统计 分 。 案例 分 析 采取 21 16 
析 数学 模型 运用 
数据 分 析 工具 ”各 种 数据 处 理 软件 等 Matlab 使 用 69 10 
利用 
模糊 词 的 使 用 。 统计" 绝 大 多 数 “ 差 不 多 “大 量 " 等 8 


1 


绝 大 多 数 Es 8 0 


类 模糊 词 的 出 现 次 数 
| 
| 《GO 建立 初始 记 库 预 检索 验证 并 更 新 间 库 
【ew 
Ce 旦 数据 采集 框架 
es 系统 抽样 
© | 1 
ee 含 泛 化 和 精确 
站 二 关键 启 的 论文 
pe 
A 不 售 泛 化 关键 只 含 泛 化 关键 
人 词 的 论文 词 的 论文 
二 一 
> 梢 确 关键 记 利用 二 次 匹配 数据 采 
集 规则 进行 顶 检索 
四 | 一 
加 
C= 
词 库 
图 2 泛 化 -精确 关键 词 词 库 建立 流程 


(2) 预 检索 验证 并 更 新 词 库 。 依 据 初始 词 库 利用 
二 次 匹配 数据 采集 规则 进行 预 检索 ,得 到 3 类 论文 :四 
不 含 泛 化 关键 词 的 论文 ;@ 只 含 泛 化 关键 词 的 论文 ;@) 
含 泛 化 和 精确 关键 词 的 论文 。 对 3 类 论文 分 别 进行 系 
统 抽样 ,抽取 20% 的 论文 。 对 于 中 类 论文 ,利用 文本 
内 容 分 析 ,判断 并 补充 新 的 泛 化 关键 词 ;对 于 四 类 论 
文 , 通 过 分 析 其 上 下 文 补 充 精确 关键 词 ; 对 于 四 类 论 
文 , 分 析 其 上 下 文 判断 精确 关键 词 是 否 有 效 , 知 精确 关 
键 词 匹配 准确 率 低 于 90% , 则 删除 该 精确 关键 词 。 若 
抽取 的 3 类 论文 中 没有 新 的 泛 化 关键 词 以 及 精确 关键 
词 可 以 添加 ,同时 所 使 用 的 精确 关键 词 都 有 效 , 则 跳出 
迭代 ,输出 该 类 数据 采集 单元 的 词 库 。 

最 终 得 到 基于 数据 生命 周期 的 泛 化 - 精确 关键 词 
词 库 , 见 表 2。 
3.3.3 基于 Python 的 二 次 匹配 数据 采集 规则 

针对 科学 数据 的 二 次 匹配 数据 采集 规则 ,规则 逮 
辑 如 图 3 所 示 : 


sa 作 上 标记 | 是 否 

ee 等 待人 工 | 具有 科学 和 全 | 

| 判断 数据 特征 | | 

No No Yo vo 
东区 汪 | | 过 4Dl4 人 信人 人 作 入 数 | 论文 人 部 ya 个 采 
个 数据 | 、 定 的 语 e4114 是 否 、、Yey | 含 泛 和 上 县 | 写 入 论文 全 部 Yes | 一 个 采 
采集 单 | | 库 进 行 | | 入 样本] >、 合 泛 化 着 关键 词 上 六 和 合生 开关 惫 | 标记 | 站 | 据 库 | ”检索 完毕 人 集 间 元 
的 词 库 匹配 论文 | 网 的 语句 » | 的 词 库 | 
1 1 1 1 1 1 
| Stepl | Step2 Step3 | Step4 | Step5 | 
3 二 次 匹配 数据 采集 规则 
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步骤 1 :选择 第 一 个 数据 采集 单元 的 词 库 。 

步 又 2: 以 词 库 中 的 " 泛 化 关键 词 " 依 次 对 4 114 篇 
论文 的 全 部 内 容 进行 第 一 次 检索 。 

步 又 3 :判断 论文 是 否 含有 泛 化 关键 词 ”, 若 是 ， 
则 提取 包含 “ 泛 化 关键 词 ” 的 语句 ,录入 Excel; 反 之 检 
索 下 一 篇 论文 。 

步骤 4: 以 “精确 关键 词 ” 进行 检索 ,判断 是 否 含 
有 , 奋 是 ,给 该 篇 论文 作 上 标记 ,具有 词 库 所 假定 的 科 
学 数据 信息 ,并 将 标记 信息 写 人 数据 库 中 ;反之 , 作 上 
等 待人 工 判断 标记 ,由 人 工 判断 是 否 具 有 词 库 所 假定 
的 科学 数据 信息 ,若是 则 同样 作 上 标记 并 写 人 数据库 ; 
反之 ,检索 下 一 篇 论文 。 

步 又 5 :判断 4 114 篇 论文 是 否 全 部 检索 完毕 , 若 
是 5 选择 下 一 个 数据 采集 单元 的 词 库 ,返回 步骤 2; 反 


之 3 案 一 下 篇 论文 。 
4CQG 社 会 科学 数据 外 部 环境 分 析 


旺 分 析 社会 科学 数据 的 外 部 环境 , 即 对 社会 科学 研 
完 领 域 文献 的 发 文 单位 .发文 作者 ,发 文 时 间 、 关 键 词 
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ON 80 
© 70 
CN 如 60 
加 图 吓 
>> 本 50 
[1 J 瓜 40 
x 
人 加 
(= 
ee ”站 大志 玉 中 大 中 莫 贡 
es 京 庆 海 南 南 舍 国 宗 人 北 
安 大 癣 交大 洲 人 物 太 
© 意 学 事 通 学 事 民 次 学 
大 ”大 大 ”大 大 党 
党 全 全 全 合谋 
图 4 
表 3 论文 合作 人 数 占 比 
作者 人 数 /人 论文 数量 /篇 所 占 比例 /% 
1 680 16.54 
2 1 549 237,67 
3 L130 31.86 
4 456 11.09 
党 98 2.38 
6 18 0. 44 
8 1 0.02 


通过 对 高 产 作者 进一步 分 析 , 如 表 4 所 示 ,发 文 量 
最 多 的 是 宋 华 ( 中 国人 民 大 学 ) ,重点 研究 供应 链 金 
融 ; 排 名 第 二 的 是 唐 建 来 (江南 大 学 )， 研 究 内 容 偏 向 


9E 


突显 .研究 热点 进行 分 析 。 分 析 其 外 部 环境 ,一 方面 有 
助 于 了 解 物流 研究 的 基本 情况 , 另 一 方面 ,结合 外 部 环 
境 分 析 , 有 助 于 深入 了 解 社会 科学 数据 的 创建 和 使 用 。 
4.1 发 文 单 位 分 析 

对 发 文 第 一 单位 进行 分 析 发 现 ,高 等 院 校 占 比 
97% ,其 他 单位 如 公司 .研究 院 ,政府 部 门 等 占 比 3% ， 
说 明 社 会 科学 研究 的 主体 是 高 等 院 校 。 

进一步 分 析 发 文 量 在 前 20 名 的 高 校 ,如 图 4 所 
示 ,北京 交通 大 学 发 文 排名 第 一 ,随后 是 重庆 大 学 、 上 
海 海事 大 学 ,西南 交通 大 学 .中 南大 学 .大连 海事 大 学 、 
中 国人 民 大 学 .北京 物资 学 院 .东北 大 学 西安 交通 大 
学 。 这 些 高 产 院 校 的 研究 在 一 定 程 度 上 代表 着 国内 物 
流 领 域 的 发 展 前 沿 ,下 文 将 结合 高 产 院 校 在 科学 数据 
的 使 用 与 其 科学 内 部 特征 进行 分 析 。 
4.2 发 文 作 者 分 析 

样本 论文 涉及 作者 共 10 138 人 ,平均 每 篇 论文 由 
2.47 人 完成 。 具 体 分 布 如 表 3 所 示 ,80% 的 论文 由 2 
-4 人 完成 ,说 明 物 流 领域 的 学 术 研 究 倾向 于 合作 完 
成 ,其 中 2 -3 人 合作 情况 居多 。 


章 艾 扣 盘 首 珊 生长 中 诲 这 
理 天 科 下 大 大 和 矿 大 科大 
工人 千 技 工人 千 人 营业 拿 靶 拿 


高 等 院 校 发 文 量 排名 ( Top20 ) 


表 4 2015 年 1 月 -2020 年 3 月 CSSCI 高 产 作 者 


序号 ”第 一 作者 ”论文 数量 /篇 | 序号 。 第 一 作者 ”论文 数量 /篇 
. 宋 华 9 11 李 健 11 
2 唐 建 荣 16 12 黎 继 子 10 
染 妥 14 13 冯 疾 10 
人 13 14 地 晓 峰 9 
但 斌 12 15 张 学 龙 9 
6 王 文 宾 11 16 王 静 9 
7 ”张建军 1 17 汪 传 雷 9 
8 浦 徐 进 11 18 康凯 8 
2 李 新 然 11 19 葛 显 龙 8 
10 颜 波 11 20 于 辉 
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于 区 域 物流 和 绩效 评价 ; 梁 雯 (安徽 大 学 ) 以 农村 物流 
和 协调 发 展 等 为 研究 主题 ,发 文 量 排名 第 三 ;物流 领域 
的 高 产 作者 还 有 王道 平 . 但 斌 、 王 文 宾 \ 张 建 军 、 浦 徐 
进 、 李 新 然 . 颜 波 等 。 
4.3 发 文 时 间 分 析 

一 个 学 科 领 域 的 发 展 速度 和 发 展 程度 可 以 从 文献 
的 年 代 分 布 中 看 出 来 。 因 为 检索 截止 时 间 为 2020 年 3 
月 1 日 , 且 院 校 单位 发 表 的 论文 占 总 论文 的 97% ,因此 
重点 讨论 院 校 单位 及 其 发 表 的 论文 数量 ,如 图 5 所 示 : 
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一 一 一 院 校 发 表 论文 的 数量 ”一 一 = 发 表 论文 的 院 校 数量 


图 5 2015 -2019 年 院 校 发 表 论 文 数量 及 
发 表 论 文 的 院 校 数量 
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C2015 -2019 年 之 间 论 文 数量 的 演变 可 分 为 3 个 阶 
除 各 一 了 县 是 2015 - 2017 年 ,全 国 院 校 在 物流 领域 
号 表 的 论文 以 及 在 物流 领域 发 表 论 文 的 院 校 数量 总 
优 章 旺 下 降 趋 势 ;第 二 阶段 为 2017 - 2018 年 , 受 (商贸 
物 演 发 展 * 十 三 五 "规划 》《 关 于 积极 推进 供应 链 创新 
二 | 疾 用 的 指导 意见 《商务 部 等 8 部 门 关于 开展 供应 链 


创 野 与 应 用 试点 的 通知 ) 等 重大 政策 出 台 , 供 应 链 创新 、 


物流 降 本 增 效 等 研究 热门 主题 ,推动 了 物流 研究 领域 
的 发 文 量 以 及 院 校 的 关注 度 ;第 三 阶段 为 2018 - 2019 
年 期 间 ,两 者 数量 均 有 回落 ,一 方面 因为 高 水 平 期 刊 控 
制 发 文 数量 , 另 一 方面 由 于 前 期 物流 热点 研究 密集 ,后 
期 发 文 量 呈 现 震 荡 下 降 。 总 体 来 看 ,行业 政策 出 台 、C 
刊 发 文 数 量 收 紧 、 人 研究 成 果 向 国际 期 刊 转移 等 因素 均 
在 一 定 程度 上 导致 物流 研究 领域 发 文 数 量 下 降 。 
4.4 关键 词 突现 性 分 析 

通过 研究 关键 词 在 不 同时 期 的 兴衰 ,可 以 用 于 探 
索 一 个 研究 领域 内 过 去 的 潮流 和 未 来 的 趋势 ,便于 探 
究 2015 -2019 年 论文 数量 波动 的 原因 。 本 研究 利用 
CiteSpace 软件 对 关键 词 进行 突现 性 检测 (Burst detec- 
tion) ,突现 强度 越 强 ,说明 该 关键 词 在 这 上 段 时 期 内 受到 
的 学 术 关注 度 越 突出 ,如 表 5 所 示 。 

受 经 济 环境 和 政策 影响 ,2015 年 与 物流 业 相 关 的 
多 种 研究 主题 集中 出 现 , 例 如 电子 商务 、 食 品 安全 、 绿 
色 物流 等 , 受 其 影响 当年 发 文 量 为 近 5 年 最 高 。 自 
2016 年 起 ,人 研究 主题 向 物流 信息 、 物 联网 “互联 网 +” 
等 主题 集中 ,下 降 至 12 个 ,其 中 8 个 关键 词 的 热度 没 
有 维持 到 2017 年 ,进一步 导致 了 2017 年 发 表 的 论文 
数量 降低 。2018 年 物流 产业 、 物 流 服务 供应 链 等 研究 
对 象 热度 上 升 ,并 且 2017 年 碳 交易 、 碳 税 等 关键 词 热 
度 延 续 到 了 2018 年 ,使 得 2018 年 论文 发 表 数 量 有 所 
上 升 。2019 年 具有 高 突现 强度 的 关键 词 都 是 从 2017、 
2018 年 中 延续 而 来 ,当年 并 没有 新 增高 突现 强度 的 关 
键 词 , 故 2019 年 发 文 数量 有 所 回落 。 


i 表 5 2015 -2020 年 物流 领域 关键 词 突现 分 析 
关键 词 数量 平均 突现 强度 起 止 时 间 起 止 时 间 示意 图 
电子 商务 、 食 品 安全 ,绿色 物流 ,物流 网 络 、 经 济 增长 , 低 碳 物流 ,应 
急 管理 、 食 品 供应 链 、 农 产品 物流 ,流通 业 、 绩 效 评价 .供应 链 协 同 、 ”16 3.0884 2015 | = 
突 发 事件 .区 域 经 济 ,协同 发 展 .结构 方程 模型 
回 购 契 约 第 三 方 物流 、 随 机 需求 .协同 4 3.0945 2015 -2016 IE 
激励 机 制 物流 信息 ,期权 契约 、 商 业 信用 4 2.7785 2016 | BS 
物 联网 、 碳 减 排 “ 互 联网 + ”\ 碳 交易 4 3.2625 2016 -2017 RE 
微分 博弈 .制造 业 ` 碳 税收 益 共享 4 3.5012 2017 -2018 | 
定价 决策 .长江 经 济 带 、 公 平 偏好 3 3.3579 2017 -2020 | | | | 
欧 流产 业 ,物流 服务 供应 链 、 风 险 规避 ,城市 交通 .定价 策略 5 3.5871 2018 -2020 | | | 
4.5 物流 研究 热点 分 析 sliced networks 、Pruning the merged network , 对 2015 — 
关键 词 是 对 一 篇 文献 主题 和 内 容 的 高 度 概 括 , 因 2019 年 间 物 流 研 究 出 现 的 关键 词 进行 共 现 分 析 。 并 


此 通过 对 一 个 研究 领域 中 的 文献 进行 关键 词 共 现 分 
析 , 可 以 总 结 得 到 该 领域 的 研究 热点 ”。 利 用 
CiteSpace 软件 自 带 的 剪 枝 算法 Pathfinder、 Pruning 


形成 可 视 化 的 知识 图 谱 ,探寻 物流 研究 中 的 热点 令 
i 
如 图 6、 表 6 所 示 , 结 合 高 产 作者 以 及 他 们 的 研究 
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方向 ,可 以 将 近 5 年 物流 领域 的 研究 热点 概括 为 :中 跨 
境 物流 ;G@ 闭 环 供应 链 ;@ 供 应 链 金融 ;由 农产品 物流 ; 


> (玉环 供应 链 


. 时 划 论 
。 ( 炬 道 供应 链 


eK 北 道 。 扣 色 供应 链 


(9 绿色 物流 。 


i 响 因素 


和 改善 共享 契约 。 .证 价 机 排 放 
全 应 链 协调 懂 调 -一 
得 传 算法 
,农产品 供应 链 
/，。 ”人 应 链 会 融 
鲜 农 产品 jy， 
和 应 链 管 理 物流。 。 六 化 二 风 子 商务 
有 和 | Ye 二流 企业 8 系统 动力 学 

™ 
E 图 6 ”物流 领域 关键 词 共 现 知识 图 谱 
9 表 6 ”物流 领域 高 中 心 度 关键 词 表 7 数据 来 源 类 别 、 具 体 含义 及 使 用 情况 
GE 中 心 度 频次 关键 词 中 心 度 频次 数据 来 源 类 别 具体 特征 使 用 次 数 
Csr 09 41 | 供应 链 协 调 。 0.69 157 科学 调查 数据 ”主要 指 通 过 社会 科学 研究 方法 由 研究 者 自身 或 2 886 
i 委托 他 人 对 研究 对 象 开展 调查 获取 的 数据 ,该 类 

A wo 和 数据 多 为 一 手数 据 ,多 以 问卷 ,表格 以 及 多 种 形 
Cu 0.83 12 碳 排放 0.56 61 式 存在 于 研究 者 的 电脑 中 

流 0.82 44 双 渠 道 0.51 60 政府 公开 数据 “来 源 于 国家 或 地 方 政府 发 布 的 统计 年 鉴 .统计 公 。 1 560 
信息 水 对 称 0.82 2 风险 规避 2 报 .政策 文件 .报告 等 
人 Ge 330 | 定价 决策 Os 0 商业 公开 数据 “来 源 于 行业 协会 .论坛 会 议 发 布 的 报告 ,企业 公 ”797 
| 开 、 科 学 数据 库 的 物流 相关 数据 等 
供应 链 金 融 。 0.79 114 跨 境 电 座 0.46 24 
ce" 风险 0.76 6 物流 企业 0.38 49 调查 日 E 度 较 数据 格式 多 种 多 

刁 A ES HF 7 人 

心 化 0.75 2 演化 博弈 0 33 44 象 .调查 日 的 不 同 ,获取 难度 人 大 ,上 且 数 据 书 式 

资 达 约束 Gi 38 “|‖ 系统 动力 学 6 入 样 ,呈现 出 多 .小 . 散 的 特点 。 尽 管 科学 调查 数据 获取 


一 
5 O 社 会 科学 数据 创建 和 使 用 分 析 


基于 上 文 所 提出 的 数据 采集 方法 ,获取 论文 中 科 
学 数据 创建 和 使 用 的 相关 信息 ,并 结合 上 文 的 外 部 环 
境 分 析 , 对 其 进行 深入 分 析 。 
5.1 数据 创建 
5.1.1 科学 数据 来 源 分 析 

(1) 科 学 数据 来 源 情况 概述 。 数 据 来 源 是 指 研究 
中 科学 数据 的 来 源 炬 道 , 在 样本 分 析 基 础 上 ,将 现 有 研 
究 的 数据 源 划 分 为 科学 调查 ,政府 公开 和 商业 公开 3 
个 来 源 渠 道 , 见 表 7。 

通过 对 3 类 数据 源 进 行 统计 ,使 用 次 数 由 低 到 高 
依次 为 商业 公开 数据 ,政府 公开 数据 、 科 学 调查 数据 。 

从 数据 获取 的 难 易 程度 来 看 ,政府 公开 数据 和 商 
业 公开 数据 由 于 开放 程度 较 高 ,数据 格式 较为 一 致 ， 
此 获取 较 易 。 科 学 调查 数据 因为 其 调查 方法 、 调 查 对 


难度 较 大 ,但 因 其 具有 较 强 的 自主 性 和 研究 内 容 针对 
性 ,也 更 受 科研 人 员 的 青睐 。 

(2) 高 产 院 校 的 数据 来 源 分 析 。 高 产 院 校 的 研究 
通常 能 体现 一 个 研究 领域 的 发 展 前 沿 ,他 们 在 科学 数 
据 使 用 上 的 特征 具有 一 定 代 表 性 ,根据 上 文 对 发 文 单 
位 的 分 析 , 选 取 发 文 量 在 前 10 位 的 院 校 单位 进行 统计 
分 析 , 如 图 7 所 示 。 每 个 高 产 院 校 都 有 一 半 以 上 的 研 
究 使 用 的 科学 数据 的 来 源 为 科学 调查 数据 ,其 中 东北 
大 学 发 表 的 论文 有 95% 都 使 用 了 科学 调查 数据 ,科学 
调查 是 物流 研究 乃至 社会 科学 研究 领域 中 数据 的 主要 
来 源 方式 。 同 时 发 现在 高 产 院 校 中 ,北京 交通 大 学 .中 
国人 民 大 学 .北京 物资 学 院 这 3 所 地 处 北京 的 高 校 , 所 
使 用 的 科学 数据 多 来 源 于 政府 公开 和 商业 公开 ,这 一 
方面 体现 出 北京 的 高 校 与 政府 之 间 的 合作 更 为 紧密 ， 
相 比 其 他 省 份 的 高 校 更 容易 获取 到 政府 数据 , 男 一 方 
面 也 说 明了 北京 高 校 更 加 重视 对 政府 公开 数据 的 利 
用 ,对 相关 政策 文件 敏感 度 更 高 。 
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图 7 发 文 量 前 10 位 的 单位 的 数据 来 源 情况 


ee 
5_ 科学 数据 搜集 方法 分 析 
CCD 科学 数据 搜集 方法 情况 概述 。 数 据 搜集 方法 
是 得 学 者 们 通过 何 种 途径 搜集 科学 数据 用 于 研究 ,本 
将 科学 数据 的 搜集 方法 分 为 网 络 查找 和 非 网 络 查 
找 状 种。 网 络 相 找 主要 指 通 过 互联 网 搜索 专业 数据 
座 5 牺 业 报 告 上 市 企业 公开 数据 ,统计 年 鉴 政府 文件 
三 四 其 他 网 站 上 数据 等 物流 相关 信息 , 非 网 络 查找 主 
要 措 通 过 仿真 实验 .发 放 问 卷 . 开 展 调 研 .发 起 访谈 的 
六 并 闭 取 相关 数据 。 本 研究 对 样本 文献 的 统计 结果 显 
示 53 葡 用 网 络 查找 搜集 数据 的 论文 占 比 56. 52% , 非 网 
缩 移 找 占 比 50.58% ,总 体 来 看 ,网 络 搜集 已 经 成 为 物 
流 狗 究 获取 科学 数据 的 主要 途径 。 
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(2) 不 同年 份 数据 搜集 方法 选择 分 析 。 为 了 进 一 
步 了 解 研究 者 的 数据 搜集 习惯 的 变化 趋势 ,进一步 分 
析 不 同年 份 网 络 搜集 与 非 网 络 搜集 的 占 比 情况 ,如 
8 所 示 。 通 过 分 析 发 现 , 非 网 络 搜集 多 年 来 在 研究 中 
的 占 比 基 本 稳定 ,而 网 络 查 找 搜集 方式 有 不 断 升 高 的 
趋势 ,提高 了 近 15% 。 一 方面 表明 伴随 计算 机 网 络 技 
术 不 断 进 步 , 已 经 有 越 来 越 多 的 研究 人 员 利 用 网 络 来 
帮助 自己 完成 科学 研究 过 程 中 的 数据 搜集 工作 ,数字 
化 科研 (E-Science) 是 社 科 领 域 科研 人 员 的 主要 科研 环 
境 之 一 ; 男 一 方面 ,传统 的 社会 科学 调查 等 传统 方法 在 
现 有 研究 中 仍然 占有 重要 地 位 。 


发 表 论 文 数量 /篇 


2018 年 2019 年 2020 年 


一 发表 论文 数量 ”一 网 络 杏 找 ”一 -一 非 网 络 查找 
图 8 不 同 数据 搜集 方法 在 各 年 份 发 表 的 论文 中 的 占 比 


5.1.3 ”科学 数据 类 型 分 析 

(1 ) 科 学 数据 类 型 情况 概述 。 目 前 对 数据 分 类 的 
研究 较 多 ,本 研究 依据 数据 产生 的 目的 不 同 将 科学 数 
据 划 分 为 一 手数 据 和 二 手数 据 , 一 手数 据 是 指 研究 者 
通过 实验 访谈、 发 放 问 卷 等 方式 首次 亲自 收集 并 经 过 
加 工 处 理 的 数据 ,二 手数 据 是 指 来 源 于 他 人 调查 和 科 
学 实验 的 数据 ” 。 另 一 方面 ,从 数据 格式 看 ,可 以 将 


其 分 为 文本 、 数 值 . 图 片 .音频 型 等 ,具体 类 别 分 布 
见 表 8。 

总 体 来 看 ,研究 中 二 手数 据 的 使 用 要 略 多 于 一 手 
数据 ,前 者 占 样 本 论文 总 数 的 75% ,后 者 占 65% ,同时 
大 部 分 数据 类 型 的 格式 以 文字 和 数值 为 主 。 一 手数 据 
中 模型 参数 数据 \ 算 例 数据 和 仿真 数据 占 比较 大 ,模型 
参数 数据 是 在 构建 模型 时 所 设 定 的 前 提 条 件数 据 ; 算 
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表 8 物流 科学 数据 类 别 细 分 及 在 样本 中 的 使 用 情况 


数据 类 别 论文 数量 /篇 。 具体 类 别 数据 格式 出 现 次 数 | 数据 类 别 ”论文 数量 /篇 。 具体 类 别 数据 格式 出 现 次 数 
一 手数 据 ”2 683 算 例 数据 数值 1 162 二 手数 据 3 077 专著 数据 文本 1 724 
模型 参数 数据 文本 数值 1 035 政府 文件 数据 文本 数值 1 178 
仿真 数据 数值 892 博 硕 论文 数据 文本 数值 983 
问卷 数据 文本 .数值 439 统计 年 鉴 数据 数值 631 
企业 公开 数据 数值 478 
调研 数据 ”文本 数值 .音频 .图片 282 行业 报告 数据 文本 数值 383 
数据 库 数 据 数值 349 
访谈 数据 文本 .数值 .音频 242 统计 局 数据 数值 280 
统计 公报 数据 数值 134 
专家 评价 数据 文本 数值 225 其 他 网 站 数据 “文本 数值 .图片 107 
总 计 4277 总 计 6 274 
样本 论文 数量 /篇 4114 


例 数据 指 的 是 论文 使 用 算 例 来 验证 文中 提出 的 模型 或 
相 美 结论 的 正确 性 时 所 使 用 到 的 数据 ,该 类 数据 一 部 
生源 企 业 或 其 他 部 门 的 真实 数据 , 另 一 关 是 由 研究 者 
根据 异型 条 件 设置 的 数据 ;仿真 数据 是 在 仿真 实验 中 
所 记 用 的 参数 数据 ; 除 此 之 外 常见 的 一 手数 据 还 有 问 
卷 歼 据 访谈 数据 等 。 另 外 ,几乎 每 篇 文献 所 进行 的 研 


路 境 物流 ,闭环 供应 链 、 供 应 链 金 融 .农产品 物流 绿色 
物流 5 个 研究 热点 的 相关 论文 ,进一步 探讨 不 同 研究 
热点 所 使 用 的 科学 数据 类 型 情况 ,如 图 9 所 示 。 研 究 
路 境 物流 的 论文 中 使 用 二 手数 据 的 次 数 要 远 远 多 于 使 
用 一 手数 据 , 而 在 闭环 供应 链 的 研究 领域 中 更 多 的 论 
文 偏向 于 使 用 一 手数 据 ,供应 链 金 融 、 农 产品 物流 和 绿 


究 均 会 利用 到 期 刊 文本 数据 , 故 未 在 表 8 中 列 出 。 色 物 流 研究 领域 中 一 手数 据 和 二 手数 据 的 使 用 次 数 差 
(2) 不 同 研究 热点 数据 类 型 使 用 偏好 分 析 。 选取 | 距 较 小 。 
© 250 
A 200 
三 攻 150 
起 100 
50 
pT : 跨 境 物流 闭环 供应 链 供应 链 多 点 农产品 物流 绿色 物流 
加 一手 数据 @ 二 手数 据 
图 9 不 同 物流 研究 热点 使 用 数据 类 型 情况 
从 科学 数据 的 具体 类 型 来 看 ,如 图 10 .图 11 所 示 ，| 5.2 数据 使 用 


不 同 研 究 热 点 对 一 手 科 学 数据 的 使 用 偏好 明显 不 同 ， 
跨 境 物 流 偏好 使 用 问卷 数据 ;闭环 供应 链 \ 绿 色 物流 两 
个 研究 领域 中 ,都 倾向 于 使 用 模型 参数 数据 、 算 例 数 据 
或 仿真 数据 。 从 二 手数 据 来 看 , 跨 境 物流 研究 偏好 政 
府 文件 数据 ,供应 链 金 融 偏 好 企业 公开 数据 ,农产品 物 
流 .绿色 物流 研究 偏好 于 专著 类 数据 。 各 研究 热点 间 
对 于 科学 数据 的 使 用 偏好 区 别 较 大 , 究 其 原因 ,不 同 研 
究 热 点 由 于 其 研究 基础 .研究 对 象 . 研 究 方法 不 同 , 直 
接 影响 了 科学 数据 的 使 用 偏好 , 且 该 偏好 伴随 研究 热 
点 的 深入 而 动态 变化 。 


5.2.1 科学 数据 分 析 方 法 分 析 

(1) 科 学 数据 分 析 方 法 情况 概述 。 数 据 分 析 方 法 
是 指 研 究 中 进行 数据 人 处理 和 分 析 时 所 用 方法 ,通过 对 
样本 中 出 现 的 数据 分 析 方 法 进行 统计 ,如 表 9 所 示 , 其 
中 算 例 分 析 、 实 验 法 ,统计 学 方法 是 使 用 最 多 的 3 种 数 
据 分 析 方法 。 说 明 在 物流 领域 更 多 的 是 结合 现实 情况 
或 者 案例 进行 研究 ,而 非 单纯 地 理论 研究 ,并且 定 量 研 
究 多 于 定性 研究 。 大 数据 建 模 方法 是 指针 对 大 数据 分 
析 所 发 展 起 来 的 一 系列 机 絮 学 习 算 法 ,例如 决策 树 、 文 
持 向 量 机 、 人 工 神经 网 络 等 ”。 其 他 分 析 方 法 包括 内 
容 分 析 法 .社会 网 络 分 析 ,文献 计量 分 析 等 ”。 
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图 11 不 同 研究 热点 使 用 二 手数 据 类 型 情况 
表 9 数据 分 析 方 法 类 别 及 在 样本 中 的 使 用 情况 


号 数据 分 析 方法 使 用 次 数 序号 数据 分 析 方 法 使 用 次 数 序号 数据 分 析 方 法 使 用 次 数 
1 算 例 分 析 1 162 4 博弈 分 析 682 7 大 数据 建 模 方 法 306 
2 实验 法 922 5 比较 研究 法 476 8 数据 包 络 分 析 158 
3 统计 学 方法 911 6 案例 研究 法 349 9 其 他 分 析 方 法 94 


(2) 不 同 物流 研究 热点 数据 分 析 方 法 的 偏好 分 
析 。 结 合 跨 境 物 流 、 闭 环 供 应 链 、 供 应 链 金 融 、 农 产品 
物流 .绿色 物流 5 个 研究 热点 的 论文 数据 分 析 方 法 的 
使 用 偏好 分 析 , 如 图 12 所 示 ,可 以 看 出 ,统计 学 方法 在 
供应 链 金 融 \ 跨 境 物流 、 农 产品 物流 中 都 比较 常用 ,但 
在 闭环 供应 链 中 用 得 非常 少 ,闭环 供应 链 更 偏好 于 算 
例 分 析 、 实 验 法 和 博弈 分 析 。 这 也 符合 闭环 供应 链 的 研 
究 特 点 ,闭环 供应 链 多 侧重 于 理论 研究 ,因此 需要 算 例 
分 析 来 验证 理论 结果 ,而 其 他 研究 热点 则 侧重 于 实证 。 
5.2.2 ”科学 数据 分 析 工 具 分 析 

(1) 科 学 数据 分 析 工 具 情 况 概 述 。 分 析 工 具 是 研 


究 者 进行 数据 分 析 选 择 的 必然 结果 ,分 析 工 具 可 以 协 
助 .加快 研 究 工 作 的 开展 ,为 研究 工作 带 来 极 大 的 便 
利 。 对 论文 中 提 及 的 数据 分 析 工 具 进 行 统计 分 析 , 如 
表 10 所 示 。 其 中 MATLAB .SPSS .AMOS 等 仿真 与 统计 
分 析 软 件 使 用 次 数 较 多 。 

(2) 不 同年 份 数据 分 析 工 具 的 选择 分 析 。 如 表 11 
所 示 , 近 5 年 MATLAB 的 使 用 占 比 呈 逐 年 上 升 态 势 ; 
SPSS STATA 和 EVIEWS 这 3 类 统计 分 析 软 件 在 功能 
上 较为 相似 ,其 中 SPSS 和 EVIEWS 存在 下 降 的 趋势 ， 
而 STATA 则 处 于 上 升 期 , 究 其 原因 ,SPSS 因为 非常 容 
易 操 作 ,初学 者 上 手 速度 快 ,所 以 目前 在 3 款 相似 软件 
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12 数据 分 析 方 法 在 不 同 研究 热点 的 占 比 


表 10 使 用 次 数 前 20 名 的 数据 分 析 工具 


Es 名 称 ”使 用 次 数 ‖ 序号 名 称 使 用 次 数 
NN MATIAB 617 11 UCINET 5 
C SPSS 261 12 JAVA 20 
- AMOS 106 13 LISREL 16 
© STATA 92 14 SMARTPLS 15 
< ARCGIS 63 15 Python 15 
Cs EvEws & 16 MAXDEA 14 
LINGO 58 17 Frontier 14 
Cs Cirx 54 18 GeoDa 12 
CY VENSIM 45 19 VisualStudio 10 
习 0 DEAP 43 20 CiteSpace 6 
日 

>< 


a 表 11 6 种 软件 在 各 年 份 中 的 使 用 情况 


年 办 MATLAB SPSS STATA EVIEWS ArcGIS Python 


Ne 13.2% 7.3% 1.5% 1.8% 0.7% 0.0% 
20860%E 128% 67% lil% 21% 07% 0.0% 
2017 年 15.3% 6.3% 15% 15% 1.8% 0.1% 
2018 年 16.7% 5.3% 3.0% 111% 2.2% 0.5% 
2019 年 17.6% 5.2% 3.9% 0.9% 2.6% 1.5% 


注 :比例 = 当年 使 用 该 软件 的 论文 /当年 发 表 的 全 部 论文 
中 使 用 率 最 高 ,但 是 在 处 理 前 沿 的 统计 过 程 和 数据 管 
理 范围 上 存在 一 些 局 限 性 ,在 学 术 节 奏 越 来 越 快 的 当 
下 ,可 能 是 导致 其 使 用 率 在 不 断 降 低 的 原因 之 一 ,而 
STATA 的 操作 也 具有 简单 易 懂 的 特点 ,同时 在 数据 处 
理 功能 和 数据 管理 能 力 上 , 随 着 该 软件 近 几 年 的 不 断 
更 新 ,也 变 得 越发 强大 ,因此 该 软件 的 使 用 率 在 不 断 追 
赶 SPSS ,并 隐隐 有 将 其 超过 的 势头 。EVIEWS 虽然 也 
是 一 款 简单 易 上 手 的 软件 ,但 是 扩展 性 较 差 ,在 需要 大 
量 编程 的 分 析 中 ,存在 后 劲 不 足 的 弱点 ,导致 本 身 使 用 
率 不 高 的 EVIEWS 近 几 年 还 在 不 断 下 降 。AreGIS 和 
Python 是 近年 来 在 物流 领域 的 研究 中 开始 使 用 的 软 


件 , 使 用 率 在 不 断 上 升 。 

值得 一 提 的 是 ,物流 研究 中 使 用 数据 分 析 工 具 多 
来 自 于 理工 类 学 科 , 例 如 使 用 MATLAB 最 多 的 学 科 是 
数学 计算 机 、 电 子 等 ,SPSS STATA EVIEWS 的 使 用 在 
计量 经 济 学 的 研究 中 比较 常见 ,ArcGIS 则 在 地 理 环境 、 
旅游 资源 等 研究 中 使 用 最 多 , Python 最 先 用 于 计算 机 
学 科 的 研究 中 ,可 以 体现 出 物流 研究 乃至 社会 科学 研 
究 具 有 较 强 的 学 科 交 叉 性 。 
5.2.3 ”模糊 词 使 用 分 析 

(1) 模 糊 词 使 用 情况 概述 。 模 糊 词 是 指 在 描述 科 
学 数据 时 所 使 用 的 具有 模糊 概念 的 词语 。 模 糊 词 的 使 
用 是 否 是 因为 研究 中 缺乏 科学 数据 的 支持 所 导致 的 ? 
为 了 探究 这 个 问题 ,本 研究 统计 8 种 模糊 词 的 使 用 情 
况 ,从 表 12 可 见 ,使 用 模糊 词 的 论文 占 比 70% ,说 明 模 
糊 词 的 使 用 在 物流 领域 的 研究 中 比较 常见 。 其 中 “大 
多 “很 多 "在 论文 中 出 现 的 频率 最 高 。 为 了 进一步 分 
析 模 糊 词 在 每 篇 论文 中 的 使 用 情况 ,统计 8 种 模糊 词 
的 总 使 用 次 数 和 篇 均 使 用 次 数 见 图 13。 

表 12 模糊 词类 别 及 在 样本 中 的 使 用 情况 


论文 数量 /篇 类 别 论文 数量 /篇 比例 /% 

模糊 词 2 892 大 量 1 793 62 
很 多 1 299 45 
很 少 568 20 
若干 459 16 

绝 大 多 数 223 8 

少量 221 8 

差不多 27 1 

无 数 23 1 


从 图 13 发现， 大量” 很 多 "两 词 的 总 使 用 次 数 
远 超 其 他 模糊 词 ,在 物流 领域 的 研究 中 使 用 范围 最 广 。 
“很 少 ” 的 总 使 用 次 数 要 高 于 “若干 ”, 但 篇 均 使 用 次 数 
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13 ”模糊 词 总 使 用 次 数 及 其 篇 均 使 用 次 数 


却 低 于 后 者 ,说 明 “ 若 干 "的 使 用 范围 比较 集中 。 而 
“差不多 "和 “无 数 "两 词 的 受 欢迎 程度 远 没有 其 他 6 
信 记 高 ,虽然 都 属于 模糊 词 , 但 "差不多 "这 个 词 应 该 
明江 糊 词 中 合 义 最 "模糊 "的 一 个 了 ,无数 "本 身 绝对 
会 双 太 深 ,这 也 是 这 两 个 词 在 学 术 环境 越发 严谨 的 当 
代 全 用 率 普遍 较 低 的 原因 。 

馈 (2) 不 同年 份 下 模糊 词 的 使 用 。 计 算 每 一 年 使 
用 入 糊 词 的 论文 数量 占 全 部 论文 的 比例 , 见 图 14 ,可 
9 


ke] 


人 @ 本 研究 对 社会 科学 研究 中 物流 研究 领域 进行 分 析 
后 人 如 下 发 现 : 
二 (1 ) 在 研究 方法 上 ,在 前 期 研究 的 基础 上 ,创新 性 
提包 了 从 样本 文献 中 采集 社会 科学 数据 创建 和 使 用 相 
关 信 息 的 方法 ,包括 在 数据 生命 周期 框架 下 利用 迭代 
式 方法 构建 < 泛 化 - 精确 关键 词 词 库 ” ,能够 保证 数据 
采集 的 准确 性 与 全 面 性 ,基于 Python 的 二 次 匹配 规则 
能 够 有 效 提高 数据 采集 效率 。 通 过 对 物流 领域 4 114 
篇 CSSCI 收录 的 文献 进行 社会 科学 数据 相关 信息 的 采 
集 , 并 与 前 期 研究 成 果 进 行 比 对 ,证 明了 这 种 方法 的 可 
行 性 和 高 效 性 。 同 时 通过 对 数据 的 具体 分 析 不 难 发 
现 ,物流 研究 在 社会 科学 研究 中 有 跨 学 科 特 性 ,研究 对 
象 的 多 样 性 也 导致 了 其 科学 数据 的 复杂 性 , 一定 程 度 
上 反映 了 社会 科学 研究 的 复杂 性 。 本 方法 在 该 领域 的 
适用 ,为 研究 社会 科学 领域 中 其 他 学 科 的 科学 数据 创 
建 和 使 用 提供 了 借鉴 ,为 后 续 研究 整个 社会 科学 数据 
的 创建 和 使 用 提供 了 可 能 ,能 够 推动 对 社会 科学 数据 
的 理解 和 认识 ,为 制定 更 加 合理 有 效 的 政策 管理 办 法 


英 定 基础 。 

(2) 物 流 研究 作为 社会 科学 研究 的 一 个 研究 领 
域 ,研究 者 在 研究 方法 的 使 用 和 研究 过 程 中 有 明显 的 
路 学 科 特 性 ;物流 行业 活动 涉及 到 社会 经 济 生活 的 各 
行 各 业 ,物流 研究 的 对 象 并 不 局 限于 物流 本 里 ,而 更 加 
注重 物流 在 人 类 社会 经 济 活动 中 的 结合 ,社会 经 济 、 产 
业 链 \ 供 应 链 组织 个 体 都 是 物流 的 研究 对 象 ,涉及 到 
社会 科学 研究 对 象 的 大 部 分 内 容 。 因 此 ,以 物流 科学 
数据 作为 社会 科学 数据 的 研究 样本 ,具有 较 强 的 代表 
性 ,物流 科学 数据 在 一 定 程 度 上 展现 出 了 社会 科学 数 
据 种 类 多 、 体 量 小 , 非 标 准 化 等 基本 特征 。 

(3) 在 数据 来 源 的 选择 方面 , 按 使 用 次 数 由 高 到 
低 分 别 为 科学 调查 数据 ,政府 公开 数据 商业 公开 数 
据 , 它 们 分 别 由 科研 机 构 与 研究 者 .政府 机 构 .行业 协 
会 与 企业 所 创建 。 从 使 用 次 数 上 能 够 体现 ,科学 调查 
数据 因为 能 够 通过 问卷 .访谈 .调研 等 方式 获取 到 更 具 
研究 针对 性 的 数据 ,在 研究 中 更 受 欢迎 ,但 是 其 组 织 格 
式 存储 方 式 更 加 复杂 ,获取 难度 也 较 大 ; 除 此 以 外 , 社 
会 科学 研究 对 政府 公开 数据 重视 度 也 较 高 , 相 比 于 商 
业 公开 数据 获取 更 加 容易 .更 具 权威 性 ,在 使 用 次 数 上 
前 者 要 远 多 于 后 者 。 在 分 析 不 同 高 产 院 校对 数据 来 源 
的 使 用 偏好 时 ,发 现 地 处 北京 的 高 校对 政府 公开 数据 
的 使 用 更 多 ,说 明 位 于 首都 的 高 校 更 加 重视 政府 公开 
数据 的 利用 ,对 政策 有 着 更 高 的 敏感 度 。 

(4) 社 会 科学 数据 的 类 型 繁多 ,包括 仿真 数据 、 问 
卷 数据 等 一 手数 据 和 政府 文件 数据 、 统 计 年 鉴 数 据 等 
二 手数 据 ,其 中 二 手数 据 的 使 用 要 多 于 一 手数 据 , 这 与 
近年 来 数据 搜集 方法 的 改变 也 有 着 密切 关系 ,对 数据 
搜集 方法 的 分 析 ,表明 随 着 信息 技术 的 不 断 推进 ,使 用 
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图 14 不 同年 份 模 糊 词 使 用 情况 


网 络 查找 搜集 数据 的 论文 在 不 断 增加 。 值 得 一 提 的 
大 ;社会 科学 研究 有 较 强 学 科 交 叉 性 ,例如 在 物流 的 研 
装 脸 经 常会 有 多 种 不 同类 型 的 科学 数据 混用 ;数据 搜 
集 莉 分 析 工 作 在 研究 中 变 得 越 来 越 重要 ,为 了 提高 研 
究 又 率 , 学 者 们 倾向 于 2 -3 人 合作 完成 研究 工作 。 
加 (5) 分 析 不 同 研究 热点 的 数据 分 析 偏好 发 现 ,不 
ee 
棉 罗 法 的 选择 上 有 关 , 跨 境 物流 、 供 应 链 金 融 、 农 产品 
牧 漳 .绿色 物流 更 重视 统计 学 方法 ,闭环 供应 链 更 偏好 
于 都 例 分 析 、 实 验 法 和 博弈 分 析 。 因 此 在 后 期 的 科学 
刍 狂 组 织 与 管理 上 ,可 以 依据 研究 领域 .研究 主题 对 社 
会 冬 学 数据 进行 分 类 管理 。 

-三 (6) 社会 科学 数据 的 分 析 工 具 繁 多 ,但 整体 使 用 
率 罗 高 ,只 有 约 30% 的 研究 会 使 用 ,值得 注意 的 是 , 研 
究 中 所 使 用 的 数据 分 析 工 具 基 本 都 是 由 国外 研究 机 构 
或 者 学 者 所 开发 ,说 明 我 国 的 学 术 研究 在 数据 分 析 工 
具 的 使 用 上 存在 较 高 的 国外 依赖 性 ,需要 加 强 自主 研 
发 ,减少 国外 学 术 华 断 的 风险 。 

(7) 通 过 模糊 词 分 析 , 只 有 “大 量 "“ 很 多 ”很 少 ” 
“若干 "4 个 模糊 词 的 使 用 次 数 较 多 ,由 于 模糊 词 本 身 
具有 不 精确 描述 的 特点 ,因此 一 个 学 科 领 域 的 研究 使 
用 如 “大 量 "“ 很 多 “很 少 "等 模糊 词 ,很 容易 被 认为 该 
学 科 的 研究 缺乏 精确 数据 的 支持 , 才 导 致 大 量 模糊 词 
的 使 用 ,但 是 从 统计 结果 来 看 ,无 论 是 使 用 次 数 多 还 是 
少 ,8 种 模糊 词 每 一 年 的 使 用 率 都 较为 平稳 ,没有 因为 
当下 大 数据 .信息 化 时 代 的 冲击 而 出 现 太 大 的 波动 ,说 
明 部 分 模糊 词 的 频繁 使 用 并 不 能 表示 一 个 学 科 领 域 的 
数据 氛围 不 好 ,而 很 有 可 能 只 是 与 我 国语 言 文化 氛围 


和 学 者 个 人 用 语 习惯 有 关 呈 2 。 

(8) 文 献计 量 分 析 仅 作为 外 部 环境 分 析 方法 , 结 
合 本 文 所 提出 的 二 次 匹配 方法 采集 论文 中 社会 科学 数 
据 创建 和 使 用 的 相关 信息 ,在 分 析 其 特点 的 同时 ,从 
“内 ”和 “外 ”两 个 角度 对 社会 科学 数据 创建 和 使 用 进 
行 深 入 研究 。 

本 研究 在 前 期 研究 基础 上 解决 了 从 论文 中 提取 社 
会 科学 数据 创建 和 使 用 相关 信息 困难 的 问题 ,并 利用 
物流 研究 领域 文献 进行 分 析 。 在 后 续 研 究 中 ,一 方面 
可 以 提高 词 库 的 完整 性 ,在 中 文 版 基础 上 构建 英文 版 
词 库 ,并 依据 不 同学 科 进 行 调整 ; 另 一 方面 利用 该 方法 
对 社会 科学 研究 领域 不 同学 科 的 研究 论文 开展 大 范围 
研究 ,同时 将 研究 样本 扩展 到 国际 英文 期 刊 ,对 不 同学 
科 .不同 研究 范式 .不 同 研究 领域 间 社 会 科学 数据 的 创 
建 和 使 用 特点 进行 横向 比较 ,全 面 展现 我 国 社会 科学 
数据 的 特征 。 
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Abstract: | Purpose/significance | Under the framework of the data life cycle, this paper proposes an innova- 
tive method for collecting information on the creation and use of social science data from papers, and deeply studies 
its basic situation, which provides a new idea for the research of social science data. | Method/ process | Based on 
the papers collected by CSSCI from 2015 to 2020 in the field of logistics research with strong interdisciplinary inter- 
section, this paper constructed thesauruses with generalized and accurate keyword based on the data life cycle through 
iterative method, collected the relevant information of social science data. Then, combined with the external environ- 
mental information of social science data, a comprehensive study of the creation and use of social science data has 
been carried out. | Result/conclusion | The rules is feasible and efficient in collecting information on the creation 

Tad use of social science data. Using Internet has become the main data collection method in social science research. 
lfferent research topics have different preferences for data use, and the popularity of data analysis tools is still low. 
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